Cell | 思源一号助力解析灵长类基因组复杂结构区域
导 读
“人类独特性的来源以及人类疾病的产生”一直以来都是备受关注的科学问题。2024年2月29日,上海交通大学Bio-X研究院毛亚飞课题组在学术期刊Cell上发表了题为“Structurally divergent and recurrently mutated regions of primate genomes”的研究论文。
该研究通过对比分析现代人类和8个非人灵长类物种的基因组,系统性表征了约一百三十万个谱系特有结构变异。这些结构变异改变了约27%的人类基因组成分,为理解人类基因组的独特演化提供了重要线索。除此之外,该研究还首次提出了“灵长类基因组结构多变区(SDR)”的概念,并发现了多个与人类疾病密切相关的基因组结构多变区,如:Joubert综合征等疾病。
01
深入探索灵长类遗传密码,揭示基因组的复杂面貌
“人类为什么是人类”一直以来都是备受关注的重要科学问题,通过解析灵长类基因组可以帮助我们更好地理解人类演化历程、谱系特有性状形成以及疾病发生的生物学机制。人类和非人灵长类在基因组结构和序列上具有一定的异质性,然而基因组改变如何影响灵长类演化进程以及导致人类疾病发生的具体遗传演化机制亟待深入研究。
在以往的比较基因组学研究中,由于受到基因组质量较低等因素的限制,研究人员通常只能通过单核苷酸变异(SNV)来理解物种的形成、演化和疾病产生。随着第三代测序技术的快速发展和广泛应用,研究人员现已能够通过构建高质量的基因组来探究简单的结构变异等遗传变异。在这项研究中,该团队通过比较基因组学、群体遗传学、医学遗传学和结构生物学等交叉学科手段深入探究灵长类基因组的演化和人类疾病风险位点的形成,为理解“人类为什么是人类”这一基础生物学问题提供了新的视角。同时,该工作在比较基因学、结构变异和演化医学等研究领域也树立了研究的新范式。
人类特有RGPD6重复导致的疾病风险位点示意图
02
揭秘基因组演化与功能变异
通过对高质量基因组的深入分析,该研究首次发现了灵长类基因组中存在一种快速演化的结构多变区。此类区域往往序列相似性低且结构复杂,在以往研究中常被忽略。在该研究中,研究人员发现这些区域与人类的片段重复有着紧密的联系,并且在灵长类谱系中承担着致使基因重复丢失、增加或者产生新基因的关键任务。该工作首次结合人类泛基因组图谱与非人灵长类基因组比较分析,发现了与人类Joubert综合征致病有关的NPHP1位点的单倍型,解析了人类特有基因组结构导致NPHP1丢失的遗传机制。这些工作为后续的疾病诊断、基因治疗和个体化医疗等提供了重要的科学依据。
灵长类结构多变区热点图
03
“交我算”平台:科研成果加速器
超长读长测序技术是基因组学研究的重要进展,为基因组学研究带来了革命性的改变,在处理复杂基因组区域时优势显著。但超长读长测序数据的分析也对高性能计算能力提出了更高要求。研究团队依托“交我算”思源一号平台的强大算力,成功组装得到了3个灵长类动物的高质量基因组,组装序列准确性高达99.98%。研究团队利用高质量灵长类基因组数据,绘制了灵长类简单结果变异图谱,并基于高通量数据分析,发现了多个人类特有的结构变异,并解析了这些结构变异可能治病的遗传基础。同时,该研究首次深入解析了RGPD基因家族演化历史,阐明了基因组结构变异中片段重复变异在灵长类演化和人类疾病中的重要生物学意义。
此外,在“交我算”计算团队的支撑下,研究团队先后做了两次结构差异区域(SDRs)鉴定:①比较了猴和猿的染色体序列,共鉴定出1,704个结构差异区域(SDRs),并验证了其中的1,607个;②通过比较人类和狨猴基因组,研究人员发现了687个结构差异区域(SDRs),这些区域约38.45 Mbp无法与完整的人类参考基因组正交对齐。这些发现表明,与人类相比,狨猴体内新出现的重复基因的表达模式可能存在物种特异性差异,因此有必要进一步研究这些基因在该物种中的神经生物学功能。
论文致谢“交我算”思源一号高性能计算平台
结语
随着测序技术的发展,长序列的测定能够提供更多的生物基因信息,这些信息的解析离不开大内存高并发的高性能计算资源。在生命科学前沿领域,生物技术和计算能力的双向提升,将能更好地助力科学新发现。
论文链接:
https://doi.org/10.1016/j.cell.2024.01.052
撰稿:王星泽、张仪方
参考来源:上海交通大学Bio-X研究院
#推荐阅读
责任编辑:汪浩淼